학습목표¶

수치해석 라이브러리인 numpy의 이해 및 사용
데이터 분석 라이브러이인 pandas의 이해 및 사용

DataFrame 생성하기¶

일반적으로 분석을 위한 데이터는 다른 데이터 소스(database, 외부 파일)을 통해 dataframe을 생성
여기서는 실습을 통해, dummy 데이터를 생성하는 방법을 다룰 예정

import pandas as pd

dictionary로 부터 생성하기¶

dict의 key -> column

data = {'a': 100, 'b': 200, 'c': 300}
pd.DataFrame(data, index = [0, 1, 2, 3])

data = {'a' : [100, 200, 300], 'b': [1, 2, 3], 'c': [4, 5, 6]}
pd.DataFrame(data, index=[100, 200, 300])

Series로 부터 생성하기¶

각 Series의 인덱스 -> column

a = pd.Series([100, 200, 300], ['a', 'b', 'c'])
b = pd.Series([101, 202, 303], ['a', 'b', 'c'])
c = pd.Series([110, 220, 330], ['a', 'b', 'c'])

pd.DataFrame([a, b, c])

	a	b	c
0	100	200	300
1	100	200	300
2	100	200	300
3	100	200	300

	a	b	c
100	100	1	4
200	200	2	5
300	300	3	6

	a	b	c
0	100	200	300
1	101	202	303
2	110	220	330